#读取docx中的文本代码示例
import docx
import re
#获取文档对象
file=docx.Document(u"e:\\t.docx")
#print("段落数:"+str(len(file.paragraphs)))#段落数为13，每个回车隔离一段

#输出每一段的内容
#for para in file.paragraphs:
#    print(para.text)

#输出段落编号及段落内容
i=1
stra='in ('
for i in range(len(file.paragraphs)):
    text = str(file.paragraphs[i].text).strip()
    #print(text)
    if len(text)!=0:
       #print(re.sub("[^A-Z]|^字", "", text))
       a = re.findall("[A-Z]|_", text)   #反取，匹配出除字母外的字符
       #print(''.join(a))
       i=i+1
       stra=stra+"'"+''.join(a)+"',"
stra=stra+")"
print(i)
print(stra)